背景:机器学习(ML)系统依靠数据来做出预测,与传统软件系统(例如数据处理管道,服务管道和模型培训)相比,该系统具有许多添加的组件。现有关于软件维护的研究研究了针对不同类型的问题(例如绩效和安全问题)的问题报告需求和解决过程。但是,ML系统具有特定的故障类别,报告ML问题需要特定于域的信息。由于ML和传统软件工程系统之间的特征不同,我们不知道报告需求在多大程度上不同,并且这些差异在多大程度上影响了问题解决过程。目的:我们的目标是调查ML和非ML问题之间分辨率时间的分布以及某些ML问题的分配时间是否存在差异。我们进一步研究了ML问题和非ML问题的修复大小。方法:我们在GitHub的最新活动应用ML项目中提取问题报告,提取请求和代码文件,并使用自动方法过滤ML和非ML问题。我们使用已知的深度学习错误分类法手动标记这些问题。我们测量了受控样本上ML和非ML问题的解决方案的分辨率时间和大小,并比较每个类别的分布。
translated by 谷歌翻译
本文展示了我们对知识图的愿景,该图形可以帮助机器推理传感器观察到的信号原因。我们展示了该方法如何允许构建智能监视系统,这些系统理由是信号的最可能原因(例如,攻击者打破窗口),而不是直接在接收的信号上作用,而无需考虑其产生的方式。
translated by 谷歌翻译
本文提供了一个知识图,以协助推理出于智能目的的信号。我们使用麦克风,相机和社交媒体的组合数据来突出显示现有知识图和推理系统的局限性,例如。我们的方法没有直接作用于接收的信号上,而是考虑攻击者的行为,信号发射,接收器特征以及如何汇总信号以支持推断信号的根本原因。
translated by 谷歌翻译
Human and robot partners increasingly need to work together to perform tasks as a team. Robots designed for such collaboration must reason about how their task-completion strategies interplay with the behavior and skills of their human team members as they coordinate on achieving joint goals. Our goal in this work is to develop a computational framework for robot adaptation to human partners in human-robot team collaborations. We first present an algorithm for autonomously recognizing available task-completion strategies by observing human-human teams performing a collaborative task. By transforming team actions into low dimensional representations using hidden Markov models, we can identify strategies without prior knowledge. Robot policies are learned on each of the identified strategies to construct a Mixture-of-Experts model that adapts to the task strategies of unseen human partners. We evaluate our model on a collaborative cooking task using an Overcooked simulator. Results of an online user study with 125 participants demonstrate that our framework improves the task performance and collaborative fluency of human-agent teams, as compared to state of the art reinforcement learning methods.
translated by 谷歌翻译
大型语言模型(LLMS)最近在生成流利文本方面表现出了令人印象深刻的能力。 LLM还显示出一种令人震惊的倾向,倾向于再现社会偏见,例如性别与职业或种族或种族和犯罪行为之间的刻板印象。像种族和性别一样,道德是一个重要的社会变量。我们的道德偏见会影响我们如何接受他人及其论点。我预计LLM的明显道德能力将在其对人类社会环境的影响中发挥重要作用。这项工作调查了LLMS是否复制与政治团体相关的道德偏见,我称这是道德模仿的能力。我使用道德基础理论中的工具来衡量模型中的道德内容,在促使自由和保守的政治身份促使该模型产生的文本中,使用了道德基础理论中的工具来探讨GPT-3(175B参数语言模型)的这一假设。结果表明,大型语言模型确实是道德模仿。当带有政治身份的提示时,GPT-3产生了反映相应道德偏见的文本。道德模仿可能有助于通过道德重新建立社会群体之间的理解。令人担忧的是,它还可以加强两极分化的观点,加剧现有的社会挑战。我希望这项工作鼓励进一步调查道德模仿能力,包括如何利用它来实现社会善良并最大程度地降低其风险。
translated by 谷歌翻译
Covid-19在全球范围内影响了223多个国家。迫切需要非侵入性,低成本和高度可扩展的解决方案来检测COVID-19,尤其是在PCR测试无普遍可用的低资源国家。我们的目的是开发一个深度学习模型,使用普通人群(语音录音和简短问卷)通过其个人设备自发提供的语音数据记录来识别Covid-19。这项工作的新颖性在于开发一个深度学习模型,以鉴定来自语音记录的199名患者。方法:我们使用了由893个音频样本组成的剑桥大学数据集,该数据集由4352名参与者的人群来源,这些参与者使用了COVID-19 Sounds应用程序。使用MEL光谱分析提取语音功能。根据语音数据,我们开发了深度学习分类模型,以检测阳性的Covid-19情况。这些模型包括长期术语记忆(LSTM)和卷积神经网络(CNN)。我们将它们的预测能力与基线分类模型进行了比较,即逻辑回归和支持向量机。结果:基于MEL频率CEPSTRAL系数(MFCC)功能的LSTM具有最高的精度(89%),其灵敏度和特异性分别为89%和89%,其结果通过提议的模型获得了显着改善,这表明该结果显着改善与艺术状态获得的结果相比,COVID-19诊断的预测准确性。结论:深度学习可以检测到199例患者的声音中的细微变化,并有令人鼓舞的结果。作为当前测试技术的补充,该模型可以使用简单的语音分析帮助卫生专业人员快速诊断和追踪Covid-19案例
translated by 谷歌翻译
为了与机器人合作,我们必须能够理解他们的决策。人类自然会通过类似于逆增强学习(IRL)的方式来推理其可观察到的行为,从而推断出其他代理商的信念和欲望。因此,机器人可以通过提供对人类学习者的IRL提供信息的示威来传达他们的信念和欲望。一项内容丰富的演示是,鉴于他们当前对机器人决策的理解,与学习者对机器人将要做的事情的期望有很大差异。但是,标准IRL并未对学习者的现有期望进行建模,因此不能执行这种反事实推理。我们建议将学习者对机器人决策的当前理解纳入我们的人类IRL模型中,以便机器人可以选择最大化人类理解的演示。我们还提出了一种新颖的措施,以估计人类在看不见环境中预测机器人行为的实例的难度。一项用户研究发现,我们的测试难度与人类绩效和信心息息相关。有趣的是,选择人类的信念和反事实时,选择示范会在易于测试中降低人类绩效,但在困难测试中提高了性能,从而提供了有关如何最好地利用此类模型的见解。
translated by 谷歌翻译
灾难事件后立即可用的高分辨率卫星图像对于响应计划至关重要,因为它促进了对临界基础设施状态的广泛情境意识,例如建立损坏,洪水和障碍物来访问路线。此规模的损坏映射将需要数百人的专家小时。然而,众包的组合和深度学习的最新进步将实时降低几个小时需要的努力。要求志愿者放置点标记,而不是实际受损区域的形状,显着降低灾难期间响应所需的分析时间。但是,不同的志愿者可能在标记中不一致。这项工作提出了用于汇总可能不一致的损伤标记以培训神经网络损伤探测器的方法。
translated by 谷歌翻译
虽然通过简单的因素问题回答,文本理解的大量进展,但更加全面理解话语仍然存在重大挑战。批判性地反映出文本的人将造成好奇心驱动,通常是开放的问题,这反映了对内容的深刻理解,并要求复杂的推理来回答。建立和评估这种类型的话语理解模型的关键挑战是缺乏注释数据,特别是因为找到了这些问题的答案(可能根本不回答),需要高度的注释载荷的高认知负荷。本文提出了一种新的范式,使可扩展的数据收集能够针对新闻文件的理解,通过话语镜头查看这些问题。由此产生的语料库DCQA(疑问回答的话语理解)包括在607名英语文件中的22,430个问题答案对组成。 DCQA以自由形式,开放式问题的形式捕获句子之间的话语和语义链接。在评估集中,我们向问题上的问题提交了来自好奇数据集的问题,我们表明DCQA提供了有价值的监督,以回答开放式问题。我们还在使用现有的问答资源设计预训练方法,并使用合成数据来适应不可批售的问题。
translated by 谷歌翻译
天文学家通常已经着手通过从头开始创建自己的表示来解决监督的机器学习问题。我们表明,经过训练的深度学习模型,可以回答每个星系动物园贴花问题问题,即学习星系的有意义的语义表示,这些语义表示对于从未训练过的新任务很有用。我们利用这些表示形式优于最近对研究大型星系样本至关重要的实际任务的方法。第一个任务是识别与查询星系相似的形态的星系。给定一个星系为人类分配了一个免费文本标签(例如“ #diffuse”),我们可以找到与大多数标签匹配该标签的星系。第二个任务是确定特定研究人员最有趣的异常。我们的方法在识别最有趣的100个异常(由Galaxy Zoo 2志愿者判断)方面是100%准确的。第三个任务是调整模型来仅使用少数新标记的星系解决新任务。与从陆地图像(ImageNet)或从头开始训练的模型相比,从我们的表示形式进行微调的模型可以更好地识别环形星系。我们用很少的新标签解决每个任务;一个(用于相似性搜索)或数百个(用于异常检测或微调)。这挑战了长期以来的观点,即深度监督方法需要新的大型标签数据集,以便在天文学中实际使用。为了帮助社区受益于我们验证的模型,我们发布了我们的微调代码Zoobot。没有先前经验的研究人员可以访问Zoobot。
translated by 谷歌翻译